Stochastic human motion prediction aims to forecast multiple plausible future motions given a single pose sequence from the past. Most previous works focus on designing elaborate losses to improve the accuracy, while the diversity is typically characterized by randomly sampling a set of latent variables from the latent prior, which is then decoded into possible motions. This joint training of sampling and decoding, however, suffers from posterior collapse as the learned latent variables tend to be ignored by a strong decoder, leading to limited diversity. Alternatively, inspired by the diffusion process in nonequilibrium thermodynamics, we propose MotionDiff, a diffusion probabilistic model to treat the kinematics of human joints as heated particles, which will diffuse from original states to a noise distribution. This process offers a natural way to obtain the "whitened" latents without any trainable parameters, and human motion prediction can be regarded as the reverse diffusion process that converts the noise distribution into realistic future motions conditioned on the observed sequence. Specifically, MotionDiff consists of two parts: a spatial-temporal transformer-based diffusion network to generate diverse yet plausible motions, and a graph convolutional network to further refine the outputs. Experimental results on two datasets demonstrate that our model yields the competitive performance in terms of both accuracy and diversity.
translated by 谷歌翻译
在基于脑电图的情感计算领域,跨数据库情绪识别是一项极具挑战性的任务,受许多因素的影响,这使得通用模型产生了不令人满意的结果。面对缺乏脑电图信息解码研究的情况,我们首先分析了通过样本空间可视化,样本聚合现象量化和对五个公共数据集的能量模式分析的不同脑电图信息(个人,会话,情绪,试验)对情绪识别的影响。并基于这些现象和模式,我们提供了各种脑电图差异的处理方法和可解释的工作。通过分析情绪特征分布模式,发现了个体的情感特征分布差异(IEFDD)。在分析了IEFDD遭受的传统建模方法的局限性之后,我们提出了基于重量的通道模型矩阵框架(WCMF)。为了合理地表征情绪特征分布模式,设计了四种重量提取方法,最佳是校正t检验(CT)重量提取方法。最后,WCMF的性能在两种实验中在跨数据库任务上进行了验证,这些实验模拟了不同的实践场景,结果表明WCMF具有更稳定和更好的情感识别能力。
translated by 谷歌翻译
目前正在辩论中,将人工智能应用于科学问题(即科学的AI)。但是,科学问题与传统的问题,图像,文本等等传统问题有很大不同,在这些问题中,由于不平衡的科学数据和物理设置的复杂效果出现了新的挑战。在这项工作中,我们证明了深卷卷神经网络(CNN)在存在强热波动和不平衡数据的情况下重建晶格拓扑(即自旋连接性)的有效性。以Glauber动力学为例,以动力学模型为例,CNN映射了从特定的初始配置(称为演化实例)演变为时期的局部磁矩(单个节点特征),以映射到概率的概率可能的耦合。我们的方案与以前可能需要有关节点动力学的知识,来自扰动的响应或统计量的评估(例如相关性或转移熵)与许多进化实例的评估。微调避免了高温下强烈的热波动引起的“贫瘠高原”。可以进行准确的重建,如果热波动在相关性上占主导地位,从而总体上失败的统计方法。同时,我们揭示了CNN的概括,以处理从不太初始旋转构型和带有未经晶格的实例演变而来的实例。我们在几乎“双重指数”大型样本空间中使用不平衡的数据提出了一个关于学习的公开问题。
translated by 谷歌翻译
无锚的检测器基本上将对象检测作为密集的分类和回归。对于流行的无锚检测器,通常是引入单个预测分支来估计本地化的质量。当我们深入研究分类和质量估计的实践时,会观察到以下不一致之处。首先,对于某些分配了完全不同标签的相邻样品,训练有素的模型将产生相似的分类分数。这违反了训练目标并导致绩效退化。其次,发现检测到具有较高信心的边界框与相应的地面真相具有较小的重叠。准确的局部边界框将被非最大抑制(NMS)过程中的精确量抑制。为了解决不一致问题,提出了动态平滑标签分配(DSLA)方法。基于最初在FCO中开发的中心概念,提出了平稳的分配策略。在[0,1]中将标签平滑至连续值,以在正样品和负样品之间稳定过渡。联合(IOU)在训练过程中会动态预测,并与平滑标签结合。分配动态平滑标签以监督分类分支。在这样的监督下,质量估计分支自然合并为分类分支,这简化了无锚探测器的体系结构。全面的实验是在MS Coco基准上进行的。已经证明,DSLA可以通过减轻上述无锚固探测器的不一致来显着提高检测准确性。我们的代码在https://github.com/yonghaohe/dsla上发布。
translated by 谷歌翻译
神经网络中的大多数工作都集中在给定一组协变量的情况下估计连续响应变量的条件平均值。在本文中,我们考虑使用神经网络估算有条件的分布函数,以审查和未经审查的数据。该算法建立在与时间依赖性协变量有关COX回归的数据结构上。在不施加任何模型假设的情况下,我们考虑了基于条件危险函数是唯一未知的非参数参数的损失函数,可以应用不明显的优化方法。通过仿真研究,我们显示了所提出的方法具有理想的性能,而部分可能性方法和传统的神经网络具有$ l_2 $损失产量的偏向估计,当模型假设违反。我们进一步用几个现实世界数据集说明了提出的方法。提出的方法的实现可在https://github.com/bingqing0729/nncde上获得。
translated by 谷歌翻译
如今,重球(HB)是非凸优化中最流行的动量方法之一。已经广泛观察到,将重球动态纳入基于梯度的方法中可以加速现代机器学习模型的训练过程。但是,建立其加速理论基础的进展显然远远落后于其经验成功。现有的可证明的加速结果是二次或近二次功能,因为当前显示HB加速度的技术仅限于Hessian固定时的情况。在这项工作中,我们开发了一些新技术,这些新技术有助于表现出二次超越二次的加速度,这是通过分析在两个连续时间点上如何变化的Hessian的变化来实现的,从而影响了收敛速度。基于我们的技术结果,一类Polyak- \ l {} Ojasiewicz(PL)优化问题可以通过HB确定可证明的加速度。此外,我们的分析证明了适应性设置动量参数的好处。
translated by 谷歌翻译
近年来,面部语义指导(包括面部地标,面部热图和面部解析图)和面部生成对抗网络(GAN)近年来已广泛用于盲面修复(BFR)。尽管现有的BFR方法在普通案例中取得了良好的性能,但这些解决方案在面对严重降解和姿势变化的图像时具有有限的弹性(例如,在现实世界情景中看起来右,左看,笑等)。在这项工作中,我们提出了一个精心设计的盲人面部修复网络,具有生成性面部先验。所提出的网络主要由非对称编解码器和stylegan2先验网络组成。在非对称编解码器中,我们采用混合的多路残留块(MMRB)来逐渐提取输入图像的弱纹理特征,从而可以更好地保留原始面部特征并避免过多的幻想。 MMRB也可以在其他网络中插入插件。此外,多亏了StyleGAN2模型的富裕和多样化的面部先验,我们采用了微调的方法来灵活地恢复自然和现实的面部细节。此外,一种新颖的自我监督训练策略是专门设计用于面部修复任务的,以使分配更接近目标并保持训练稳定性。关于合成和现实世界数据集的广泛实验表明,我们的模型在面部恢复和面部超分辨率任务方面取得了卓越的表现。
translated by 谷歌翻译
近年来,抑郁症的发病率在全世界迅速上升,但大规模的抑郁症筛查仍然具有挑战性。步态分析提供了抑郁症的非接触,低成本和高效的早期筛查方法。然而,基于步态分析的抑郁症的早期筛查缺乏足够的有效样本数据。在本文中,我们提出了一种用于评估抑郁症风险的骨架数据增强方法。首先,我们提出了五种技术来增加骨架数据并将其应用于抑郁和情感数据集。然后,我们将增强方法分为两种类型(非噪声增强和噪声增强),基于互信息和分类准确性。最后,我们探索了哪些增强策略可以更有效地捕捉人骨架数据的特征。实验结果表明,保留了更多原始骨架数据属性的增强训练数据集确定了检测模型的性能。具体而言,旋转增强和通道掩码增强使抑郁检测精度分别达到92.15%和91.34%。
translated by 谷歌翻译
许多现有的景点(ROA)分析工具难以解决具有大规模神经网络(NN)政策和/或高维感测模式的反馈系统,如相机。在本文中,我们定制了在对冲学习界中开发的预计梯度下降(PGD)攻击方法作为大型非线性系统的通用ROA分析工具和基于端到端的感知的控制。我们表明ROA分析可以近似为约束的最大化问题,其目标是找到最坏情况的最坏情况初始条件最多。然后我们提出了两个基于PGD的迭代方法,可用于解决所得的受限最大化问题。我们的分析不是基于Lyapunov理论,因此需要问题结构的最低信息。在基于模型的设置中,我们示出了可以使用反向传播有效地执行PGD更新。在无模型设置(与基于感知的控制的ROA分析更相关)中,我们提出了一个有限差异的PGD估计,这是一般的,只需要一个黑盒模拟器来产生闭环系统的轨迹给予任何初始状态。我们在具有大规模NN政策和高维图像观测的几个数字示例下展示了我们分析工具的可扩展性和一般性。我们认为,我们所提出的分析是进一步了解大规模非线性系统的闭环稳定性和基于感知的控制的有意义的初步步骤。
translated by 谷歌翻译
由不同形状和非线性形状变化引起的机器官的大变形,对医学图像配准产生了重大挑战。传统的注册方法需要通过特定变形模型迭代地优化目标函数以及细致的参数调谐,但在具有大变形的图像中具有有限的能力。虽然基于深度学习的方法可以从输入图像到它们各自的变形字段中的复杂映射,但它是基于回归的,并且容易被卡在局部最小值,特别是当涉及大变形时。为此,我们呈现随机策划者 - 演员 - 评论家(SPAC),这是一种新的加强学习框架,可以执行逐步登记。关键概念通过每次步骤连续地翘曲运动图像,以最终与固定图像对齐。考虑到在传统的强化学习(RL)框架中处理高维连续动作和状态空间有挑战性,我们向标准演员 - 评论家模型引入了一个新的概念“计划”,这是低维度,可以促进演员生成易于高维行动。整个框架基于无监督的培训,并以端到端的方式运行。我们在几个2D和3D医学图像数据集上评估我们的方法,其中一些包含大变形。我们的经验结果强调了我们的工作实现了一致,显着的收益和优于最先进的方法。
translated by 谷歌翻译